AI资讯新闻榜单内容搜索-KV cache

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起，如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段，传统注意力机制中的键值缓存（KV Cache）会随着批处理大小和序列长度线性增长，俨然成为制约大语言模型规模化应用和推理时扩展的「内存杀手」。

来自主题: AI技术研报

7646 点击 2025-01-18 09:57

近日，BitNet系列的原班人马推出了新一代架构：BitNet a4.8，为1 bit大模型启用了4位激活值，支持3 bit KV cache，效率再突破。

来自主题: AI技术研报

7892 点击 2024-12-05 11:12

KV Cache 是大模型推理性能优化的一个常用技术，该技术可以在不影响任何计算精度的前提下，通过空间换时间的思想，提高推理性能。

来自主题: AI资讯

8563 点击 2024-09-03 10:46

用KV缓存加速大模型的显存瓶颈，终于迎来突破。北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案，只用2.5%的KV cache，就能保持大模型90%的性能。这下再也不用担心KV占用的显存容量过高，导致显卡不够用了。

来自主题: AI技术研报

6241 点击 2024-06-13 21:21